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微 博 内 问 型 传导 热点 发 现 与 预测 算法 研究 
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摘要 : [ 目的 /意义 ] 为 应 对 微 博 内 向 型 传导 热点 生 灭 速度 快 、 热 点 特征 不 明显 等 问题 ,研究 新 型 的 微 博 内 


向 型 传导 热点 发 现 与 预测 算法 。[ 方 法 /过 程 ] 针对 上 述 问题 ,基于 复杂 网 络 分 析 方 法 ,构建 微 博 传 导热 点 预测 
算法 ,该 算法 通过 复杂 网 络 节点 模型 扩展 生成 微 博 传导 节点 模型 ,发 现 内 向 型 传导 节点 的 传导 子 网 ;通过 对 伟 
导 节 点 序列 实施 热 功 率 计算 ,对 其 信息 传导 复 盖 范围 以 及 未 来 影响 力 进行 预测 ,进行 传导 热点 发 现 及 预测 。 
[结果 /结论 ] 数据 实验 表明 ,该 算法 较 之 目前 常用 的 热点 预测 算法 ,具有 较 高 的 传导 热点 覆盖 率 和 准确 率 , 且 耗 
时 较 少 ,性 价 比 较 高 。 
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传导 节点 ”热点 预测 


~ 


微 博 作 为 现代 网 络 媒体 最 具 代 表 性 的 信息 传播 平 
名, 以 其 信息 传播 迅速 ,信息 内 容 丰富 等 特点 受到 了 广 
大 网 民 的 青睐 ,因此 成 为 与 情 管理 的 重点 监测 对 象 之 
下 与 既往 的 网 络 媒体 不 同 , 微 博 系统 一 方面 具有 


提出 了 一 种 微 博 传 导热 点 的 发 现 与 预测 算法 (Informa- 
tion Pass & transmission Inward Node detecting and irog- 
nosis, IPIN) 。 需 要 指出 的 是 :本 研究 主要 针对 内 向 型 
传导 节点 展开 , 即 信息 由 外 部 网 络 世 界 ,通过 传导 节点 


相对 独立 性 ,各 个 微 博 系统 自生 (本 地 原创 ) 内 容 相当 
所 漳 , 例 如 :国内 四 大 微 博 系统 ( 新浪、 腾讯 .搜狐 .网 。 “传导 节点 /热点 "等 同 于 “内 向 型 传导 节点 /热点 "。 
易 3 昌 均 的 自生 信息 数量 早已 突破 干 万 级 大 关 ; 另 _- 方 ~ 

请 作 微 博 系统 间 的 信息 传导 活动 非常 频繁 ,系统 互动 生生 下 有 得 同上 二 全 六 全 

密 霸 ,复杂 网 络 理论 中 的 传导 ( 转 帖 或 转载 ) 作用 显 首先 是 复杂 网 络 传导 节点 理论 运用 于 微 博 系统 的 
车 -种 如 :2017 年 第 一 季度 微 博 传播 研究 报告 ) 表 明 : 模型 构建 问题 。S，Aparicio 等 人 证 明了 人 微 博 系统 具有 
呵 乱 做 博 系 统 中 超过 65% 的 信息 为 非 原创 ,其 中 超过 。 ”复杂 网 络 的 典型 特征 ,并 指出 传导 节点 与 复杂 网 络 中 
70% 的 信息 转载 自 其 他 传播 系统 ,而 其 中 90% 以 上 的 。 ”的 信息 路 由 尽管 较为 相似 ,但 存在 信息 传播 方式 ,主动 
热点 微 博信 息 来 自 于 占 总 数 不 足 2% 的 传导 节点 。 目 ”被 动 运 行 等 方面 的 差别 中 。M，Coletto 等 人 指出 复杂 
前 的 与 情 临 测 工作 以 及 微 博 热点 挖掘 研究 ,主要 专注 网络 中 的 传导 节点 较 之 微 博 系统 中 的 传导 节点 更 为 复 
于 单一 微 博 系统 中 的 内 容 及 信息 发 布 者 的 热度 识别 与 。 杂 , 可 以 抽取 其 中 部 分 属性 与 操作 ,用 以 构建 微 博 传导 
检测 ,而 将 传导 节点 ,特别 是 传导 热点 ,与 自生 型 信息 。 节点 模型 外。W，Maharani 和 C，Chelmis 等 人 通过 复 
热点 混为一谈 ,忽略 了 复杂 网 络 研究 的 重要 定论 , 即 。 杂 网 络 传导 节点 模型 ,扩展 衍生 出 一 个 初步 的 内 向 型 
“外 部 信息 传导 与 内 部 信息 生成 具有 同等 重要 的 意义 ， 。 微 博 传导 节点 模型 ,并 通过 仿真 实验 证 明 此 类 节点 对 
但 需要 区 别 对 待 ”, 进 而 导致 了 热点 监测 不 全 面 . 不 准 。 于 微 博信 息 互动 的 重要 性 “- 。 但 上 述 工作 普遍 存在 
确 , 导 情 控 制 启动 速度 慢 ,关键 控制 点 缺失 等 问题 。 ” 仅 有 设计 恩 路 或 总 体 方案 ,缺乏 详 细 建 模 、 处 理 算法 与 
基于 上 述 现象 及 当前 研究 存在 的 问题 ,本 研究 以 复杂 “模型 应 用 等 问题 。 针 对 上 述 问题 ,本 研究 将 以 复杂 网 
网 络 理论 为 工具 ,通过 对 微 博 网 络 节点 进行 关系 建 模 ， 络 传导 节点 的 基本 属性 对 微 博 传导 节点 进行 描述 和 建 


向 微 博 系 统 内 部 传导 扩散 ,下 文中 如 不 作 特殊 说 明 ， 
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模 , 为 后 续 算法 的 展开 奠定 数据 基础 。 

其 次 是 传导 节点 与 微 博 系统 /外 部 信息 世界 的 关 
系 模型 构建 问题 。Q. Gao 和 G. Dong 等 人 根据 传导 节 
点 的 信息 主流 方向 ,将 其 划分 为 外 向 型 与 内 向 型 ;并 指 
出 传导 节点 之 所 以 作用 巨大 ,是 因为 其 能 够 以 指向 网 
络 的 需求 作为 依据 , 从 内 /外 网 络 中 主动 获取 信 
息 ” 中 。G，Maira 等 人 提出 了 信息 “ 泵 "的 概念 ,指出 
内 向 型 传导 节点 成 功 的 要 素 之 一 是 能 够 及 时 而 准确 地 
把 握 所 在 网 络 的 信息 需求 ”。X. Shuai 和 A. J. LAM 
等 人 的 研究 表明 内 向 型 信息 传导 热点 ,实质 上 是 能 够 
自动 获取 内 网 信息 需求 与 外 网 高 匹配 度 资源 的 搜索 引 
擎 与 广告 引擎 复合 体 """ 。 允 ，Iiao 等 人 归纳 了 信息 
传导 热点 的 运营 与 盈利 模式 ,并 研究 了 微 博 类 媒体 自 
建 信息 传导 热点 的 可 行 性 '” 。 但 上 述 工作 普遍 仅 发 
现 答 解释 传导 热点 现象 ,缺乏 传导 热点 检测 与 发 现 的 
江 骨 性 研究 成 果 。 针 对 上 述 问题 ,本 研究 将 以 复杂 网 
纵 齐 点 的 信息 传导 行为 建 模 为 基础 ,研究 微 博 传导 热 
点 国 行 为 特征 ,并 规划 对 应 的 检测 与 预测 算法 。 


型 俐 导热 点 行为 特征 以 及 信息 扩散 途径 "-""。P. 
SEEpald 等 人 基于 能 量 谱 理 论 ,研究 了 微 博 传导 热点 的 
信息 扩散 特征 与 活动 影响 "”。J， Zhao 等 人 将 微 博 传 
导 攻 点 视 为 物理 学 中 的 外 部 热源 接触 点 ,研究 了 传导 
仍 的 生 灭 与 覆盖 过 程 ”。X. J 等 人 将 复杂 网 络 理 
论 假 入微 博 系统 中 加 以 应 用 ,把 复杂 网 络 中 的 传导 节 
点 慢 别 与 发 现 机制 ,在 微 博 系统 中 进行 了 验证 '” 。 但 
上 二 工作 中 尚 缺乏 行 之 有 效 的 传导 热点 监测 与 预测 算 
法 ,而 事后 热点 识别 与 发 现 机 制 对 于 社交 网 络 管理 的 
辅助 决策 意义 不 大 。 基 于 上 述 问题 ,本 研究 借助 热 功 
率 谱 算法 对 上 述 成 果 予 以 修正 和 补充 ,从 信息 热度 扩 
散 理论 角度 出 发 ,研究 微 博 节点 传导 信息 的 扩散 方式 
与 影响 程度 ,最 终 实 现 微 博 传导 热点 的 预测 与 发 现 算 
法 。 
2 传导 节点 与 预测 流程 
2.1 传导 节点 及 相关 定义 

根据 复杂 模型 传导 (关联 ) 节点 的 原始 模型 ,本 研 
究 扩展 和 定义 了 微 博信 息 传导 热点 的 基本 数据 结构 ， 
即 定义 转 帖 与 转载 内 容 超过 自身 信息 量 的 75% 的 节 
点 为 传导 节点 。 在 微 博信 息 空间 中 , 设 某 传导 节点 i 
的 当前 位 置 为 C, ,被 其 传导 的 信息 特征 向 量 的 方向 与 
微 博信 息 空间 的 基准 向 量 之 间 存在 9, 度 的 夹 角 , 而 当 
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前 的 i 节点 传导 半径 7 是 传导 节点 与 传导 空间 边缘 ( 特 
征 相 差 最 大 的 男 一 节点 ) 的 最 大 距离 , 则 传导 节点 的 传 
导 空 间 可 以 采用 一 个 五 元 组 来 表示 , 即 S,; = < 90,, x;， 
Yi， @, r, > ,在 这 个 五 元 组 中 ,二 元 组 (x;, Yi) 是 传导 节 
点 i 在 微 博 信息 空间 中 的 位 置 ;而 传导 节点 i 的 传导 范 
围 为 Si, 此 时 可 以 用 5;U 5, 表征 传导 节点 i 与 男 一 节 
点 j 的 组 合 传 导 范围 ,此 时 ,如 设 微 博 空间 中 存在 N 个 
传导 节点 , 则 该 节点 群体 的 组 合 传导 范围 为 U”15,, 此 
时 可 以 将 某 个 组 合 传导 范围 UM_,5, 占 整 个 微 博 传导 空 
间 So 的 比例 , 当 作 该 节点 集合 的 热度 基础 指标 f; 如果 
定义 其 中 的 信息 最 大 传导 半径 为 常量 ,此 时 有 : 

US, 
,0,) 公式 (1) 
而 复杂 网 络 理论 表明 : 子 网 内 的 有 效 信息 传 导 通 常 不 
会 超过 6 次 (小 世界 模型 ) ,因此 本 算法 也 将 传导 半径 
设置 为 6, 从 而 减少 动态 半径 测量 带 来 的 计算 开销 。 
至 此 ,传导 热点 的 识别 问题 可 以 转化 为 : 求 节点 i 使 其 
信息 特征 角度 0(9, ,0,,… ,0;,…,0,) 覆盖 范围 内 ,其 
产生 的 了 热度 值 超过 阔 值 ,或 在 传导 节点 序列 中 排名 
靠 前 。 

2.2 总 体 流 程 
传导 热点 预测 的 总 体 流程 如 图 1 所 示 : 


f( 9， 9250 


QD 微 博 与 情 监测 系统 对 节点 进行 
粗 分 类 ,为 IPIN 算法 提供 传导 节 
点 基础 数据 


传导 节点 基础 数据 


@IPIN 算法 进行 传导 节点 子 网 划 
分 ， 及 其 信息 空间 变化 预测 


微 博 系统 1 


其 他 微 
博 系统 2 


传导 节点 子 网 与 发 


@IPIN 算法 进行 传导 节点 跟踪 监 
测 ， 通 过 热 功 率 谱 计 算 ， 预 测 与 
发 现 微 博 传导 热点 


微 博 传导 热点 序列 


IPIN 算法 将 微 博 传导 热点 预测 
结果 提交 给 微 博 和 与 情 监测 系统 的 
相应 模块 


图 1 微 博 传导 热点 预测 总 体 流程 
步骤 1: 在 微 博 节 点 监测 过 程 中 ,由 监测 系统 对 节 
点 进行 总 体 分 类 ,根据 上 文 定义 将 传导 节点 与 其 他 节 
点 进行 粗 分 类 ,得 到 传导 节点 的 基础 数据 。 由 于 该 步 
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骤 通 常 是 由 微 博 监测 系统 自动 完成 的 ,因此 在 下 文中 
不 作 详 述 。 

步 又 2: 针 对 每 个 监测 周期 内 获取 的 传导 节点 信 
息 序列 ,IPIN 算法 将 通过 仿生 乌 群 (粒子 群 ) 算 法 进行 
传导 节点 子 网 划分 ,及 其 信息 空间 变化 预测 ,具体 方法 
是 :基于 微 博 节点 的 复杂 网 络 属性 ,发现 微 博 系统 中 的 
传导 节点 的 最 大 容纳 数 ;经 过 有 限 次 乌 群 算法 迭代 后 ， 
将 微 博 信息 空间 中 传导 节点 子 网 进行 划分 ,进而 获得 
该 子 网 的 发 展 变 化 趋势 。 

步 又 3 :将 经 过 粗 利 和 划分 的 传导 节点 序列 ,采用 
IPIN 算法 进一步 对 其 进行 跟踪 预测 ,具体 方法 是 :将 传 
导 节 点 序列 信息 片段 中 的 特征 能 量 (传导 频次 与 影响 
权重 ) 视 作 热 度 ,通过 热 功 率 谱 计 算 , 预 测 其 发 展 变 化 
趋势 ,进而 通过 排序 和 净值 过 滤 , 即 可 得 到 微 博 传 导热 


N= 


In(1 -p) 


点 子 序列 。 
步骤 4: 将 微 博 传导 热点 子 序列 提交 给 微 博 与 情 
检测 系统 。 


3.1 变量 定义 

本 研究 设 定 传导 的 最 大 距离 ( 跳 数 )r 为 6, 而 新 浪 
与 网 易 微 博 的 数据 显示 95% 以 上 的 传导 距离 在 4 跳 以 
内 ,因此 该 设 定 符合 国家 相关 规定 中 的 基本 监测 指标 
要 求 。 此 外 , 设 定 传导 节点 的 信息 特征 角度 数量 为 a。 
此 时 ,对 整个 微 博信 息 空 间 中 的 内 向 型 传导 节点 数量 
进行 评测 ,基于 复杂 网 络 的 传导 节点 理论 ,结合 上 文 定 
义 , 可 以 得 到 传导 节点 的 最 大 容纳 数 : 


a So-T -r(Co-27) 


公式 (2) 


In(1 2S-* 下 


之 在 该 式 中 ,So 为 需要 进行 传导 热点 预测 与 监测 的 
微 博信 息 空 间 (通常 将 整个 空间 且 分 为 若干 子 空间 进 
则 ) ,Co 是 微 博信 息 空间 的 直径 ( 某 空间 内 关联 信 
8 稚 最 大 传导 距离 ) ,而 p 是 当前 空间 的 信息 特征 密 


ZN 初步 工作 

二 复杂 网 络 中 通常 用 仿生 算法 进行 信息 传导 节点 的 
慌 延 分 析 , 最 终 发 现 其 总 体 变化 趋势 ,实现 热点 预测 的 
初 晤 工作 ,IPIN 算法 借鉴 这 一 经 验 ,充分 利用 前 期 微 博 
与 入 监测 的 数据 积累 ,通过 基于 仿生 鸟 群 的 有 限 迭 代 
方 涛 来 初步 发 现 和 预测 传导 节点 子 网 ,并 对 传导 热点 
进行 粗 得 。 其 中 的 最 大 选 代 次 数 可 以 由 上 文中 的 传导 
热点 最 大 容纳 数 进行 控制 。 初 步 发 现 算法 的 主要 思路 
是 :在 迭代 过 程 中 ,将 传导 节点 的 信息 特征 向 量 的 位 置 
信息 作为 其 发 展 趋势 的 主要 检测 对 象 , 通 过 构建 起 信 
息 传导 活动 的 主 特征 方向 变化 因子 来 进行 其 发 展 方向 
的 初步 预测 ,以 判断 传导 信息 的 发 展 方向 是 否 能 够 引 
领 或 符合 微 博 空间 的 主导 信息 场 。 在 具体 实现 步 又 
中 ,将 传导 节点 在 当前 微 博信 息 空间 中 的 信息 位 置 虚 
拟 化 ,传导 节点 作为 仿生 鸟 群 中 的 独立 飞行 的 鸟 (或 粒 
子 ) ,而 把 整个 微 博 监测 空间 视 为 鸟 类 飞行 的 虚拟 信息 
场 , 当 鸟 (或 粒子 ) 在 微 博信 息 空间 中 发 生 移动 或 进行 
信息 传导 时 ,其 不 但 受到 虚拟 信息 场 中 同类 信息 元 素 
(粒子 或 鸟 ) 的 吸引 力 , 而 且 受 到 过 分 接近 或 反方 向 飞 
行 的 鸟 的 排斥 力 ,两 种 传导 力量 使 得 传导 节点 i 的 信 
息 位 置 发 生 改 变 ,并 且 最 终 旦 现 出 一 定 的 总 体 发 展 趋 


a/2 mT +r(Co -27) 
9 dnt 5, 

势 , 而 这 一 趋势 正 是 判断 传导 节点 是 否 能 成 为 传导 热 
点 的 关键 之 所 在 ,计算 的 具体 方法 为 :传导 节点 ( 鸟 或 
粒子 ) 的 信息 位 置 采用 当前 信息 位 置 在 微 博 空间 内 的 
倾角 ,传导 节点 的 变化 速度 可 以 用 其 状态 位 置 在 微 博 
空间 中 旋转 的 角速度 标识 ,而 IPIN 算法 通过 鸟 (节点 ) 
在 微 博 信息 空间 中 的 运动 轨迹 来 判断 和 预测 其 发 展 方 
向 的 变迁 ,最 终 传导 节点 变化 速度 以 及 信息 位 置 可 以 


表述 为 : 
k+l 下 k 人 人 人 
vi =w(E)v, + cr (Po — Ki) + Crs ( Boon — Xi ) 
+ Cara0, 
, 守 
Wi = Xs, + Vs 公式 (3) 


在 公式 (3) 里 ,cs 是 鸟 (传导 节点 ) 的 加 速算 子 ,而 
为 0 -1 之 间 的 随机 变迁 系数 ,9, 是 乌 在 微 博信 息 空 
间 中 两 种 合力 作用 下 的 变迁 角度 ,其 余 指标 与 乌 群 算 
法 一 致 。 公 式 (3) 里 的 9, 可 表述 如 下 : 

Qu =0% Xe 公式 (4) 

在 公式 (4) 里 ,0, 是 传导 节点 单 次 可 能 改变 的 最 
大 角度 之 值 , 而 F, 是 传导 节点 所 在 信息 位 置 受到 的 外 
力 之 值 。 作 为 公式 (3 ) 的 补充 , 鸟 ( 节 点 ) 信息 状态 变 
化 的 惯性 权重 w(t) 如 下 所 述 : 


W(t) = Ww — (Wi -Wn) Xtan(A,. x(1-— 
一 5) ) tw 公式 (5) 
在 公式 (5) 里 ,tv 是 传导 热点 最 大 容纳 数 (迭代 阅 


值 ) ,而 :为 是 目前 所 处 的 迭代 次 ,ww 是 最 大 惯性 权 
重 ,而 wi 是 最 小 惯性 权重 ,4, 是 鸟 (传导 节点 ) 的 加 
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区 


速算 子 ,6 是 调节 算 子 。 由 此 可 得 公式 (3) 中 的 限制 式 
有 : 
Vnar» Uf VE Vn 
a 
其 中 ,迭代 所 需 的 吸引 力 可 由 公式 (7) 进行 计算 : 
男 一 传导 节点 1 与 节点 i 之 间 的 距离 应 小 于 7, 且 应 属 
于 同一 微 博信 息 空间 。 此 时 , 鸟 ( 节 点 )i 受 到 的 来 自 
于 t 的 引力 如 下 : 
k, 
f 长 —%,) + (v4 —),) 


0, otherwise 


isif teA(i,r) and tL.A, (i,r) 


一 公式 (7) 


i 语 在 公式 (7) 里 ,是 既定 的 引力 系数 , (xa,y。 ) 是 
请 本 ;当前 坐标 ,(x ,7 ) 是 :的 当前 坐标 ,A(i,r) 的 合 
名 以 传导 i 为 圆心 ,r 为 半径 的 信息 空间 ,A,(i,7) 是 
传 嫩 节点 i 的 信息 特征 子 空间 。 

0 与 之 类 似 的 是 , 先 代 所 需 的 排斥 力 可 由 公式 (8) 
壕 生 计算 :其 中 另 一 传导 节点 1 与 节点 i 的 距离 应 小 于 
rHY 属 于 同一 微 博信 息 空间 。 此 时 , 鸟 (节点 )i 受 到 
的 绰 自 于 1 的 排斥 力 如 下 


,if CeA(i,R,) 


pe 
0, otherwise 

S 公式 (8) 

_ 人 其 中 的 变量 解释 与 公式 (7) 相同 ,最 终 鸟 (传导 节 

点 0 复 到 的 合力 可 以 用 公式 (9) 中 的 矢量 之 和 进行 表 

达 3 


SF+t 六 f,mzl,n>1 
me 人 公式 (9) 


0, otherwise 


至 此 ,通过 仿生 乌 群 算法 进行 复杂 网 络 的 变迁 分 
析 , 可 以 通过 NN 次 迭代 之 后 ,根据 其 变化 方向 聚 类 和 分 
离 出 若干 传导 节点 子 网 ,并 能 够 以 这 些 各 传导 节点 的 
变迁 方向 与 传导 信息 特征 ,为 后 续 的 热点 预测 与 发 现 
工作 葛 定 导向 基础 。 

经 过 上 述 仿生 乌 群 算法 的 处 理 后 ,符合 微 博信 息 
空间 总 体 变 化 的 传导 节点 将 被 进一步 进行 处 理 , 假设 
微 博 空间 中 当前 传导 的 信息 内 容 序列 (一 个 监测 周 
期 ) 为 了 ,为 降低 一 次 性 处 理 开销 ,将 该 序列 均等 分 为 
n, 段 ,并 将 这 些 信息 片段 的 特征 能 量 ( 传 导 频 次 与 影响 
权重 ) 实 施 传 立 叶 变换 ,处 理 式 为 : 
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St 公式 (10) 

在 公式 (10) 里 ,2 CA) 与 冯 ; ( 太 ) 是 总 体 序列 
的 第 > 信息 片段 的 特征 傅立叶 变换 与 其 共 斩 值 ,而 久 
是 该 段 微 博 信息 中 的 热点 频率 , 可 以 表达 为 : 
Xs(fi) = CS, hi) Ss (fi) fi) 

公式 (11) 

在 公式 (11) 里 ,yp ,ya ,yu os 是 相 邻 两 个 微 博 信 
息 片 段 的 相关 系数 ,如 果 这 些 信 息 片段 完全 独立 , 则 它 
们 之 间 的 相关 系数 是 1。 而 号， (fi) ,5 (f.),…， 
5; ,x.(f;) 是 相 邻 信息 片段 之 间 的 热传导 交互 功率 
谱 ,可 以 表述 为 : 

57, (fi) = [Xf) yo (f,)] 
3.3 ”热点 预测 与 发 现 

在 建立 了 传导 节点 的 热传导 交互 功率 谱 之 后 ,可 
进行 下 列 微 博 传导 热点 预测 与 发 现 工作 : 

步骤 1: 通 过 公式 (11) 进行 处 理 ,对 待 处 理 的 信息 
片段 x(4) 实 施 传导 信息 热点 与 热度 敏感 分 量 分 解 ,从 
而 取得 ”个 热点 分 量 及 其 对 应 的 变化 趋势 分 量 (携带 
敏感 分 量 )n,(1); 

步骤 2: 通 过 上 一 步骤 中 获得 敏感 分 量 ,以 贝 叶 基 
法 选取 m 个 高 频 的 热度 敏感 分 量 (m < < NN) ,并 通过 
下 一 步 进 行 复合 功率 谱 计 算 : 

首先 ,对 所 选取 每 个 敏感 分 量 所 对 应 的 信息 序列 
片段 进行 傅立叶 变换 ,得 到 :名 ,i =1,…,m,j =1,…， 
N; 


公式 (12) 


其 次 ,计算 各 个 热度 敏感 分 量 所 在 片段 的 相关 系 
数 : 


， | 
Viirn fr) = = 公式 (13) 


Sf) Dak) 
在 公式 (13) 里 ,S;,，(f;) 可 通过 公式 (14) 取 得 : 
0 0 公式 (14) 
在 公式 (14) 式 里 ,名 (/;) 是 当前 节点 所 在 的 第 i 个 

传导 节点 子 网 总 体 平均 热度 的 离散 余弦 变换 值 。 最 

后 ,得 到 热度 复合 功率 谱 S(/;) : 
5 


AN 公式 (15) 
步骤 3: 基 于 上 述 , 可 得 : 
Pozwr; = 一 (>p lInp,)/ 天 
天 =Sa(ADZ2Se() 公式 (16) 


到 
这 人 一 1 


i me i A 三 甘 日 工 
G hi IaXIV 王 人 FF 有 有 十 | 
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在 公式 (16) 里 ,K 是 序列 片段 中 的 热点 数量 。 至 
此 通过 公式 (16) ,可 分 离 出 各 片段 中 的 传导 节点 的 热 
度 功 率 变化 趋势 ,将 各 传导 节点 的 信息 热度 功率 值 按 
全 序列 进行 累加 ,并 进行 排序 和 靖 值 过 滤 , 即 可 得 到 微 


4 实验 结果 分 析 

为 了 验证 IPIN 算法 的 实际 处 理 能 力 ,本 研究 进行 
了 微 博 数 据 处 理 实验 。 其 中 ,为 了 证 明 IPIN 算法 性 能 
的 优越 性 ,实验 对 比 算法 选 定 为 SNMA ( social networks 
monitoring algorithm ) 微 博 社交 热点 预测 与 监控 算法 ,由 
于 该 算法 并 非 专门 为 预测 传导 热点 而 设计 ,因此 本 实 
验 中 对 其 进行 适当 改造 ,使 其 预测 与 监控 目标 专门 指 
向 传导 节点 ,而 忽略 微 博 内 部 的 原创 型 热点 。 
三 本 次 实验 的 硬件 环境 为 3 台 联 想 850 服务 器 , 均 


量 , 在 总 体 被 标识 的 节点 中 的 比例 ,该 定义 代表 了 一 定 
检测 周期 内 预测 算法 浪费 系统 资源 的 程度 ”; 传 导热 
点 预测 准确 率 的 定义 为 被 预测 算法 标识 ,并 且 确 系 传 
导热 点 的 节点 ,在 实际 传导 节点 中 所 占 的 比例 ,该 定义 
代表 一 定 监测 周期 内 ,预测 算法 动态 的 、 对 实际 传导 热 
点 的 预测 准确 程度 。 

图 2 显示 了 两 种 算法 的 微 博 热点 预测 覆盖 率 数 
据 ,可 以 看 出 :在 90 个 监测 时 间 窗 口 里 ,IPIN 算法 的 热 
点 预测 覆盖 率 全 面 超过 SNMA 算法 ,在 中 后 期 的 部 分 
监测 时 间 窗 口 里 ,该 算法 的 热点 预测 覆盖 率 其 至 超过 
SNMA 算法 的 覆盖 率 达 到 了 25% 以 上 ,其 微 博 热 点 预 
测 覆 盖 性 能 良好 ;该 算法 的 预测 覆盖 率 波 动 程度 也 远 
小 于 SNMA 算法 ,稳定 性 较 佳 。 此 外 ,该 算法 在 进行 微 
博 热 点 预测 时 , 履 盖 率 上 升 速度 较 快 ,从 冷 启 动 开始 ， 
到 加 载 现 场 数据 进行 预测 ,稳定 在 较 高 的 热点 预测 覆 


Intel i5 CPUZ16G 内 存 /8T 硬盘 ;软件 系统 的 底层 
蒜 菁 Linux 服务 器 ,为 了 保证 全 局 数据 的 一 致 性 ,采用 
NES( Net File System) 实现 微 博 数据 的 网 络 无 缝 共享。 
本 江 验 采用 的 基础 数据 集 为 新 浪 微 博 提供 的 2017 年 4 
EDH 至 2017 年 6 月 30 日 的 90 天 数据 集 (期 间 ! 天 
服 知 器 维护 ,未 提供 数据 ) ,最 终 为 了 突出 传导 热点 的 
蜂 贡 与 预测 效果 ,通过 “新 浪 大 数据 在 线 " 选 取 了 信息 
外 部 传导 最 为 频繁 的 政治 类 与 金融 类 微 博 数 据 集 作为 
最 终 的 实验 数据 集 。 该 数据 集中 包含 数据 项 超过 9 千 
7 给 ( 含 回复 ) ,用 户 数 超过 110 万 “新 浪 大 数据 在 
线 E 最 终 认定 的 传导 热点 为 4 751 个 。 

-三 为 了 保证 实验 的 公正 与 公平 ,本 次 实验 分 别 将 上 
述 售 博 数据 集 严格 地 按照 微 博 内 容 生 成 与 提交 的 时 间 
顺序 注入 监测 系统 ,而 监测 系统 中 一 次 只 运行 一 种 传 
导热 点 预测 算法 ,在 处 理 完整 个 数据 集 , 并 保存 最 终 巴 
测 结果 后 ,将 清空 整个 系统 的 缓存 ,并 重新 启动 ,向 监 
测 系统 中 加 载 另 一 种 传导 热点 预测 算法 ,重新 注入 数 
据 集 进行 处 理 , 最 终 得 到 两 种 算法 独立 生成 的 预测 结 
果 后 ,再 进行 各 项 指标 的 对 比 。 本 次 实验 采用 了 国际 
公认 的 三 种 与 情 监测 与 预测 指标 对 算法 的 性 能 进行 检 
验 "" :传导 热点 预测 覆盖 率 、 传 导热 点 预测 误 报 率 和 
预测 准确 率 。 传 导热 点 预测 覆盖 率 的 定义 为 被 预测 算 
法 标识 ,并 且 确 系 传导 热点 的 节点 数目 在 总 体 被 标识 
的 节点 中 的 比例 ,该 定义 代表 一 定 监测 周期 内 (本 次 实 
验 选 取 的 监测 周期 为 24 小 时 ) ,预测 算法 动态 的 、 在 该 
周期 内 的 预测 全 面 程度 ;传导 热点 预测 误 检 率 的 定义 
可 表述 为 :一 定 监测 周期 内 , 微 博 传导 热点 预测 过 程 
中 ,被 预测 算法 标识 的 ,但 并 未 成 长 为 传导 热点 的 数 


由 


盖 率 的 “启动 -稳定 周期 " 较 短 ,从 而 体现 出 IPIN 算法 
良好 的 数据 处 理 能 
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PN ”一 一 一 SNMA | 


热点 覆盖 率 (99) 


mm 
i 亲生 


监测 时 间 和 窗口 /24hours) 


图 2 热点 预测 覆盖 率 对 比 


图 3 显示 了 两 种 微 博 热点 预测 算法 的 热点 预测 误 
检 率 数据 。 可 以 看 出 :在 90 个 监测 时 间 窗 口 里 ,IPIN 
算法 的 误 检 率 总 体 较 低 ,只 有 2 个 窗口 内 的 误 检 率 高 
于 SNMA 算法 ,而 有 25% 以 上 的 窗口 内 的 误 检 率 低 于 
SNMA 算法 的 误 检 率 超 过 30% 以 上 ,表明 了 IPIN 算法 
具有 良好 的 预测 性 能 ,能 够 为 整个 监测 系统 节省 大 量 
的 计算 资源 (避免 对 非 传导 热点 进行 持续 跟踪 ) 。 此 
外 ,图 3 中 两 种 算法 的 误 检 率 数 据 曲 线 表 明 ,IPIN 算法 
的 误 检 率 不 但 回落 速度 很 快 ,而 且 进 入 稳定 期 后 误 检 
率 的 波动 不 大 ,这 对 于 维持 整个 监测 系统 的 资源 开销 
平稳 是 非常 有 利 的 ,体现 了 较 高 的 性 价 比 。 

图 4 显示 了 两 种 微 博 热点 预测 算法 的 热点 预测 准 
确 率 数据 。 可 以 看 出 :在 90 个 监测 时 间 和 窗口 里 ,IPIN 
算法 的 准确 率 总 体 较 高 ,只 有 不 到 5% 的 监测 时 间 窗 
口 里 的 准确 率 和 SNMA 算法 较为 接近 ,而 有 30% 以 上 
的 窗口 内 的 准确 率 高 于 SNMA 算法 的 准确 率 超过 
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3 热点 预测 误 检 率 对 比 


30% 以 上 ,表明 了 IPIN 算法 具有 良好 的 预测 性 能 ,能 
够 为 整个 监测 工作 节省 大 量 甄别 工作 量 。 此 外 ,图 4 
中 两 种 算法 的 误 检 率 数据 曲线 表明 ,IEIN 算法 的 准确 
率 不 但 上 升 速度 很 快 ,进入 高 位 稳定 期 后 准确 率 的 波 
动 不 大 ,体现 了 较 高 的 算法 稳定 性 。 
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SNMA 
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除 上 述 指标 外 ,IPIN 算法 在 耗 时 方面 也 具有 一 定 
的 现势 ,通过 对 整个 监测 与 预测 过 程 进行 时 间 记 录 与 
分 福 发 现 ,该 算法 的 平均 热点 (单个 节点 从 注册 到 被 确 
0 , 较 之 SNMA 短 8.57% 。 其 中 ,有 
41 的 以 上 的 热点 发 现 与 预测 时 耗 比 SNMA 算法 低 20% 
以 疏 , 这 一 优势 能 够 为 微 博 监控 工作 节省 宝贵 的 时 间 。 


针对 微 博 传导 热点 预测 与 监测 中 难点 与 重点 问 
题 ,笔者 提出 了 一 种 基于 复杂 网 络 分 析 的 预测 算法 正 - 
IN。 实 验证 明 该 算法 具有 良好 的 性 价 比 ,预测 精度 和 
徐 益 率 较 高 , 且 响 应 速度 快 ,具有 一 定 的 实用 价值 。 但 
限于 实验 环境 与 当前 的 基础 理论 发 展 ,本 研究 尚未 对 
外 向 型 信息 传导 节点 进行 深入 研究 ,需要 在 后 续 工作 
中 深入 探讨 和 分 析 外 向 型 信息 传导 节点 的 作用 机 制 以 
及 监测 、 预 测算 法 。 此 外 ,未 来 的 工作 中 还 将 研究 传导 
节点 的 外 部 信息 关联 育 检 测 \, 反 转载 作 浴 算法 等 内 容 。 
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. [ Result/conclusion | Data experiment results prove that the IPIN algorithm has higher hot transmission node cov- 
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刊 ”; 在 中 国人 民 大 学 “复印 报刊 资料 转载 指数 排名 ” 中, 全文 转 载 量 继续 保持 名 列 本 学 科 第 一 。 据 悉 , 在 南京 大 学 

CSSCI 和 北京 大 学 《中 文 核心 期 刊 要 目 总 览 ) 以 及 中 国 社会 科学 院 、 武 汉 大 学 等 评价 系统 中 ,继续 保持 良好 的 地 位 。 
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版 基金 资助 ;首次 获得 推荐 参与 申请 第 三 届 全 国 “ 百 强 报刊 ”, 并 最 终 获得 “全 国 百 强 科技 期 刊 " 称 号 。 

《图 书 情报 工作 》 旗 下 的 《知识 管理 论坛 》 通 过 国际 最 重要 的 开放 获取 期 刊 目 录 Directory of Open Access Journal 

(DOAJ) 的 严格 审核 ,成 功 人 选 DOAJ。 由 《图 书 情报 工作 》 发 起 并 牵头 的 “图 情 期 刊 联盟 网 ”沉寂 多 年 ,2017 年 正式 

得 到 中 国 科学 院 和 文献 情报 中 心 的 支持 ,重新 启动 该 项 目的 研究 与 试点 。 
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